“视觉智能与信息安全”专栏 | MDPI Sensors:将嵌套DWT的CNN结构用于单目深度估计
点击左上角“MDPI工程科学”关注我们,为您推送更多最新资讯。
引言✦
深度信息对于卫星遥感、导航机器人、自主着陆、动物姿态识别、3D模型创建等相关应用非常有用。主动3D成像系统,如LIDAR、RADAR、SONAR等,依赖于高功率源和反射回波来构建深度图。医疗诊断、导航、机器人等应用需要3D图像。由于现代移动平台偏好最小的资源,因此常常会使用简单的2D可见/红外相机。这些相机简单易得,且功率低。使用单个2D图像的深度估计吸引了许多研究者,并且已成为趋势。最近,深度学习网络被广泛应用于估计深度。2D图像的深度预测带来了一个既不适定又非线性的问题。这样的网络在计算和时间上都很昂贵,因为其具有密集的配置。此外,网络性能取决于训练的模型配置、使用的损失函数和用于训练的数据集。
近期,Sensors 期刊上发表的研究论文,提出了一种基于离散小波分解和可训练系数 (LL, LH, HL, HH) 的中等密度编码器–解码器网络。该嵌套小波网络 (NDWTN) 保留了在编码器下采样过程中丢失的高频信息。此外,文中还研究了激活函数、批量归一化、卷积层、skip connection等对模型的影响。该网络使用纽约大学的数据集进行训练。结果表明,该网络训练速度更快,效果良好。
研究内容
深度神经网络 (CNN) 以系统的方式训练模型以提取所需的图像特征。大多数用于深度估计的网络基于DenseNet、ResNet、VGG等,且时间和计算量都很大。研究人员正致力于为学习速度更快的小型系统研究不太复杂的网络。最简单的全卷积网络是UNet,主要用于生物医学图像处理中的异常定位。在这个编码器–解码器模型中,编码器有多个块。每个块都有一堆卷积运算符,最后一级提供最大池运算符 (向下采样)。该子块提取图像上下文并将图像分辨率降低一半。解码器具有相等数量的块,每个块都有一个上采样操作,可将特征图扩大两倍。从相应编码器块获得的跳过连接被馈送到解码器块以增强输出预测。解码器将定位信息添加到输入上下文信息中。最终输出具有与用于预测的图像相似的分辨率。UNet使用有限的训练数据集提供了详细的分割图。
将UNet用于估计深度图是一个较少研究的领域。文中研究了UNet和UNet++,提出了一种使用离散小波保持深度图细节的中等密度网络。该网络架构嵌套离散波形变换网或NDWTN用于深度估计,使用编码器、多尺度解码器和跳过路径。用小波变换代替下采样和上采样层。小波变换的所有系数 (LL, LH, HL, HH) 都是可训练的,以便保留细节。文中还应用了嵌套的密集skip path和卷积,例如UNET++。此外,该文通过实施skip path中的注意力、用残差块代替卷积块、批归一化层和不同的激活层来评估NDWTN的变体。网络架构如图1所示。该结构类似于UNet++,具有单个编码器路径和多个不同规模的解码器路径,所有路径都通过密集的skip connection连接。这些跳过连接启用了嵌套网络,从而减少了语义差距,并提供了对输出的深度监控。NDWTN有四个尺度,具有UNet结构。网络和刻度用黄色、蓝色、绿色和粉色表示。每个解码器具有独立的输出端,这些输出端通过skip connection连接到最终输出端。
图1. 文中框架结构。
实验结果
该文在谷歌联合实验室Pro上训练模型,因为其提供了更快的GPU (T4、P100/V100) 和25 GB GPU内存。训练在10个epoch后停止,以便比较表现。批次大小4和8用于满足分配的内存限制,学习率为0.0001。学习率在连续几个时期呈指数衰减。随机初始化滤波器权重。损失优化器是ADAM。网络中的批次归一化层减少了内部Covariate Shift,加快了训练,并减少了过度拟合。该层有两个可学习的参数 (β和γ) 和两个不可学习参数 (均值和方差移动平均值)。原始论文提出了非线性激活函数之前的这一层。然而,许多研究人员主张,当这一层置于激活功能之后时,效果会更好。因此,作为消融研究的一部分,这一方面将得到验证。卷积层通过可学习的滤波器参数从输入图像中提取特征,并通过权重共享去除冗余信息。较高的卷积层导致图像的唯一压缩特征图,其最终提供信息决策。这一层也消耗了大部分训练时间。因此,卷积层的最佳使用是必要的。文中在网络架构中对卷积层的密度进行了实验,并研究了其性能。激活层通过非线性函数过滤传递给下一层的信息 (神经元)。这些层通过增加神经元的重量来激活所选神经元。ReLU (校正线性单元) 对于正值在计算上是有效的,且允许反向传播。然而,负输入值阻止反向传播和学习。Leaky ReLU (LR) 激活通过在负区具有小的正斜率来克服这个问题。ELU (指数线性单位) 优于这两个激活函数,但计算量大,因此不使用。在实践中,没有证据表明Leaky ReLU总是优于ReLU。因此,该文尝试比较ReLU和LR之间的性能。文中通过改变网络架构的块来开发许多模型,以研究不同块对 (a) 激活层ReLU和Leaky ReLU的总体性能的影响;(b) 批次归一化密度;(c) 批量标准化和激活层的顺序:之前或之后;(d) 堆叠中的卷积层。文中还试验了用于训练的不同损失函数。模型实施和培训的组合如下:
1. NDWT (3C, 3R, 3Bs)+Bs
2. NADWT (3C, 3LR, 1Bs)
3. NADWT (3C, 3LR, 1Bs)+Bs
4. NADWT (3C, 3Bs, 3R)+Bs
5. NADWT (3C, 3R, 3Bs)+Bs
6. NRDWT (3C, 3R, 3Bs)+Bs
7. NRDWT (3C, 3B, 3R)+B
8. NARDWT (3C, 3LR, 3Bs)+Bs
9. NARDWT (3C, 3R, 3Bs)+Bs
10. NARDWT (3C, 3B, 3LR)+B
11. NARDWT (3C, 3B, 3LR)
12. NARDWT (3C, 3LR)
13. NARDWT (4C, 4B, 4LR)+1B
其中,C:卷积层,R:ReLU,LR:Leaky ReLU,Bs:批标准化,NUMBER:实现的层数。
训练的模型在一些具有良好深度和对比度变化的复杂室内图像上进行了测试。模型的性能如图2-4所示。
图2. 训练后深度图预测,视觉比较。(A) 输入图像,(B) 真实结果,(C) UNETP,(1-13) 见前文模型实施和培训组合的说明。
图3. 模型损失性能,最好的是DWT+注意力,其次是剩余+注意力架构。
图4. 模型评估精度性能。
总结
该文开发了一个基于DWT的密集网络模型,该模型成功地从图像中预测深度。该网络学习通过由MAE、SSIM和梯度函数组成的损失函数来估计小波系数。与密集网络 (如DenseNet、RESNET等) 相比,可训练的特征图较低,因此训练速度是该文模式的优势。然而,较低的特征图具有精度较低的缺点,所以观察到对于场景远端的平滑表面,估计值很差。未来研究应集中于增加网络中具有更高可训练参数的块,并调整这些特征图中的非执行权重,对速度和性能进行权衡。
识别二维码
阅读英文原文
原文出自Sensors 期刊:
Paul, S.; Mishra, D.; Marimuthu, S.K. Nested DWT–Based CNN Architecture for Monocular Depth Estimation. Sensors 2023, 23, 3066.
撰稿人:陆哲明
专栏简介
“视觉智能与信息安全”专栏由Sensors 期刊编委陆哲明教授 (浙江大学) 主持,专注于视觉智能与信息安全领域的前沿进展与创新应用。
专栏编辑
陆哲明 教授
浙江大学
(上下滑动查看更多内容)
浙江大学教授、博士、博士生导师,浙江大学航空航天系主任、航天电子工程研究所副所长。2002年哈尔滨市青年科技奖获得者,2003年全国优秀博士学位论文奖获得者,2004年教育部新世纪人才获得者,2005年德国洪堡学者,2006年深圳市特殊津贴专家,2011年浙江省自然科学基金杰出青年基金获得者,2017年浙大宁波理工学院9211教授。截至2022年1月3日已发表SCI检索论文163篇,ESCI论文14篇,EI单检论文214篇,获省部级科技一等奖1项、二等奖4项、三等奖1项,厅级科技一等奖2项,出版专著教材15部,发明专利授权14项。2020年和2021年连续两年获得Elsevier中国高被引学者。2013年起担任国防科工局CCSDS专家、国家科学技术奖励评审专家;2017年起逐步担任国家自然科学基金重点项目评审专家、国家网络信息安全领域重大专项评审专家、全国宇航技术及其应用标准化技术委员会空间数据与信息传输分技术委员会委员;2020年起加入腾讯科学探索奖评审专家库,并开始担任澳门特区政府科技奖评审专家。2020年起担任SCI期刊Sensors 编委。陆教授长期从事多媒体信号处理、信息隐藏、复杂网络、人工智能四个领域的研究。这四个方面的研究工作并非孤立的,都是在数字媒体和网络技术飞速发展的背景下展开的。主持和主要参与国家重点研发计划、国家自然科学基金、教育部人才类基金、国防重点实验室基金、浙江省自然科学基金、宁波市科技创新2025重大专项和各种横向项目60余项。
往期回顾
“视觉智能与信息安全”专栏 | MDPI Sensors:难例图像小尺度人脸学习
版权声明:
*本文内容由Sensors 期刊编委陆哲明教授撰写,文中涉及到的论文翻译部分,为译者在个人理解之上的概述与转达,论文详情及准确信息请参考英文原文。本文遵守 CC BY 4.0 许可 (https://creativecommons.org/licenses/by/4.0/)。如需转载,请于公众号后台留言咨询。
由于微信订阅号推送规则更新,建议您将“MDPI工程科学”设为星标,便可在消息栏中便捷地找到我们,及时了解最新开放出版动态资讯!
点击左下方“阅读原文”,免费阅读英文原文。
期待您的“三连击”☞【分享,点赞,转发】